還記得好幾年前甚麼都不懂的時候有看到AlphaGo戰勝最強棋王,那時候只知道AI好厲害,但根本不知道那是什麼東西,過了幾年開始接觸到了才發現原來是機器學習領域內的強化學習,真的是太厲害了。而在前幾天有提到過強化學習,所以今天會介紹強化學習的基本概念,並在之後幾天深入探討強化學習。
強化學習 (Reinforcement Learning) 的特徵是不需給機器任何的資料,讓機器直接從互動中去學習,這是最接近大自然與人類原本的學習方式。舉個例子來說,這有點像訓練動物一樣,當牠們表現良好時給予獎勵,表現不好時給予懲罰。
主要有四個元素:
簡單來說明,強化學習透過建立一個代理人
,代理人根據當前的策略(Policy),選擇一個行動(Action)。在環境中執行選擇的行動(Action),可能會導致環境狀態的變化,環境根據代理的行動,返回一個回報(Reward)以及下一個狀態(Next State)。這些訊息用於評估代理的行動好壞。代理使用強化學習算法,根據接收到的回報和新狀態來更新其策略。
接著我們搭配下面的讓AI自己學走路影片來服用。
我們透過這個可愛的影片來看看如何透過強化學習來訓練一個Albert(機器人)學會走路。
房間1:
房間2:
房間3:
房間4:
房間5:
在這段影片中,我們看到了Albert通過強化學習,從最初的蠕動到最後的自然步行。有沒有發現這很像小寶寶在學習走路的過程,從一開始的不會移動,到開始會爬,最後跌跌撞撞的站起來到最後的學會走路,而這個過程也展示了如何透過逐步增加移動難度,並使用不同的獎勵機制來引導AI學習。這也是強化學習的核心就在於通過不斷試驗和反饋來優化行動策略,使得AI逐漸達到理想的行動效果。
使用強化學習 (RL) 有很多好處。但是下面幾點是他最明顯的優勢。
在複雜環境中表現出色
需要較少的人類互動
針對長期目標最佳化
今天帶大家認識了強化學習的一些基礎概念,接下來的幾天我會透過介紹常見的算法,再到利用實作模擬強化學習的過程,有興趣的可以繼續往下閱讀文章喔!